#aprendizaje por refuerzo

Planificación de movimiento con incertidumbre en tráfico mixto

UAMP integra incertidumbre en predicción de intenciones humanas para conducción autónoma más segura y cómoda en tráfico mixto.

2026-06-10 · 2 min

3SPO: Optimización de Políticas Guiada por Puntaje de Estado para Agentes LLM

Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop.

2026-06-10 · 2 min

Políticas multi-parámetro interpretables para algoritmos evolutivos con DRL

Aprende cómo el deep RL crea políticas interpretables de control multi-parámetro para algoritmos evolutivos, con rendimiento excepcional.

2026-06-10 · 2 min

Dropout-GRPO: Variabilidad estocástica para razonamiento latente continuo

Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.

2026-06-10 · 2 min

SHAPO: Optimización de Políticas con Agudeza para Exploración Segura

Descubre SHAPO, un método de optimización de políticas que mejora la exploración segura en aprendizaje por refuerzo, reduciendo riesgos en entornos críticos.

2026-06-10 · 2 min

Optimización de políticas sin línea base para optimización combinatoria neuronal

Descubre cómo GRPO evita el colapso del entrenamiento en optimización combinatoria neuronal sin necesidad de línea base, mejorando la estabilidad en problemas de ruteo como TSP y CVRP.

2026-06-10 · 1 min

Mitigación del sesgo en RL financiero de baja SNR con representaciones cuánticas

FPQC-SAC reduce el sesgo en RL financiero de baja SNR usando circuitos cuánticos. Logra un 66.89% más de retorno acumulado que SAC estándar. Descubre cómo.

2026-06-10 · 1 min

RetroReasoner: modelo razonador para retrosíntesis estratégica

RetroReasoner es un LLM que predice retrosíntesis con razonamiento estratégico. Usa aprendizaje por refuerzo y búsqueda Monte Carlo, superando a otros modelos en rutas sintéticas.

2026-06-09 · 1 min

Selección de prompts en el borde móvil para RL eficiente

Aprende cómo HIVE selecciona prompts clave en el borde del aprendizaje, reduciendo costos y manteniendo el rendimiento en modelos de razonamiento.

2026-06-09 · 2 min

UNIQ: Calibración Conformal para Conservadurismo Adaptativo en RL Offline

UNIQ: calibración conformal para RL offline con conservadurismo adaptativo. Mejora el rendimiento con bajo costo de memoria. ¡Descúbrelo!

2026-06-09 · 3 min

Lo fácil, lo difícil y lo aprendible: optimización adaptativa para LLM

Descubre CoDaPO: un método que asigna pesos adaptativos por dificultad y confianza para mejorar el razonamiento en LLM con aprendizaje por refuerzo. Resultados en 12 benchmarks.

2026-06-09 · 2 min

ConSteer-RL: Dirigiendo el razonamiento en LLMs con RL consciente de la confianza

Descubre ConSteer-RL: un nuevo método que mejora el razonamiento de LLMs usando señales de confianza con RL. Resultados: hasta 4% de mejora.

2026-06-09 · 2 min

ConSteer-RL: Dirigiendo razonamiento en LLMs con RL consciente de confianza

Descubre cómo ConSteer-RL mejora el razonamiento de LLMs usando señales de confianza, logrando mejoras del 2.3% al 4%.

2026-06-09 · 2 min

Manipulación aérea autónoma con meta-aprendizaje por contraste

Un dron con gancho aprende a recoger objetos de distintos pesos y adaptarse en tiempo real gracias al meta-aprendizaje contrastivo. Descúbrelo.

2026-06-09 · 1 min

Entrenamiento eficiente de LLM con RL bajo discrepancia de caja negra

DCMDP reformula el RL para LLM corrigiendo la discrepancia train-inference. Mejora el rendimiento en modelos como Qwen-3 incluso con recursos limitados.

2026-06-09 · 2 min

Estabilizando destilación on-policy para razonamiento MLLM

Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.

2026-06-09 · 2 min

De atajos a razonamiento: post-entrenamiento robusto de ToM con RL

El nuevo enfoque Thinking-RFT supera atajos en ToM: mejora un 6% frente a SFT mediante razonamiento y refuerzo.

2026-06-09 · 2 min

Refinamiento conservador de trayectorias con flujos contrafactuales

Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.

2026-06-09 · 2 min

Claw-R1: Middleware de datos paso a paso para RL agentivo

Descubre Claw-R1, el middleware que transforma las interacciones agente-entorno en datos gestionables para mejorar el RL agentivo. Optimiza el entrenamiento de LLMs con datos paso a paso.

2026-06-09 · 1 min

Optimalidad asintótica de Thompson Sampling para bandidos aversos al riesgo

Un algoritmo de Thompson Sampling no paramétrico logra optimalidad asintótica en bandidos aversos al riesgo con recompensas subgaussianas.

2026-06-09 · 2 min